在法医语音比较中,扬声器的嵌入在过去十年中已广泛流行。大多数审计的扬声器嵌入式嵌入都经过英语语料库进行培训,因为它很容易访问。因此,语言依赖性可能是自动法医语音比较的重要因素,尤其是当目标语言在语言上非常不同时。有许多商业系统可用,但是它们的模型主要接受与目标语言不同的语言(主要是英语)的培训。在低资源语言的情况下,开发用于法医目的的语料库,其中包含足够的扬声器来训练深度学习模型是昂贵的。这项研究旨在调查是否可以在目标低资源语言(匈牙利语)上使用预先培训的英语语料库的模型,与模型不同。另外,通常没有犯罪者(未知的扬声器)获得多个样本。因此,在有或没有说话者入学率的嫌疑人(已知)扬声器的情况下对样品进行比较。应用了两个语料库,这些语料库是专门用于法医目的的,第三个是用于传统演讲者验证的第三个语料库。使用了两种基于深度学习的扬声器嵌入向量提取方法:X-Vector和Ecapa-TDNN。说话者验证在可能性比率框架中进行了评估。在语言组合(建模,LR校准,评估)之间进行了比较。通过MinCllr和EER指标评估了结果。发现该模型以不同的语言进行了预先训练,但是在具有大量扬声器的语料库上,在语言不匹配的样本上表现良好。还检查了样本持续时间和口语样式的影响。发现相关样本的持续时间越长,性能就越好。另外,如果采用各种口语样式,则没有真正的区别。
translated by 谷歌翻译